Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.

2023-NIPS-[CSOT]Curriculum and Structure-Aware Optimal Transport for Learning with Noisy Labels

https://proceedings.neurips.cc/paper_files/paper/2023/hash/1b0da24d136f46bfaee78e8da907127e-Abstract-Conference.html

Introduction

既存の手法にノイズ遷移行列、reweighting、label correction、サンプル選択などがあるが、いずれもモデルが十分に訓練されてない段階での予測結果に強く依存するし、各サンプルを独立的に扱って大域的な構造については捉えてない。よって、局所最適解にいきがち。

既存の手法はこちら: 📄Arrow icon of a page link2020-Survey-A Survey of Label-noise Representation Learning: Past, Present and Future

最適輸送によるPseudo LabelをUnlabeledへの付与は、サンプルとクラスの間の距離ととらえれば使える。しかし、問題として決定境界が十分に正確ではない場合、距離が近い2つのサンプルが、論理的に遠いクラスの中心に割り当てられる可能性があるらしい。

最適輸送はつまり大域的に見れてないということ。

この論文では最適輸送によるPseudo labelの付与に、大域的な構造を加味させる手法を提案した。局所的な一貫性と大域的な分類可能性を考えたらしい。また、学習ではカリキュラム学習を使うことで、学習の序盤から誤ったPseudo Labelによる影響を減らした。

カリキュラム学習の詳細はこちら: 📄Arrow icon of a page link2018-ICML-MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels

この論文の貢献は以下のとおりである。

  1. 局所的一貫性、大域的な分類可能性?を考慮した、最適輸送によるPseudo Label付与の学習手法を提案した。
  2. CSOTという最適輸送にCurriculumを盛りこんだ改良版最適輸送を作った。
  3. CSOTを計算するための高速化アルゴリズムを開発した。
  4. 既存の手法と比べてみていい結果出たと改めて分かった。

Related Work

自分のための読むべきリストみたいなものでもある。

PUについてのOptimal Transportの初出。

📄Arrow icon of a page link2020-NIPS-Partial Optimal Transport with Applications on Positive-Unlabeled Learning

Noisy Label

Sheng Liu, Jonathan Niles-Weed, Narges Razavian, and Carlos Fernandez-Granda. Early-learning regularization prevents memorization of noisy labels. Advances in neural information processing systems, 33:20331–20342, 2020. ELR
Junnan Li, Richard Socher, and Steven CH Hoi. Dividemix: Learning with noisy labels as semisupervised learning. In International Conference on Learning Representations, 2019.
Jun Xia, Cheng Tan, Lirong Wu, Yongjie Xu, and Stan Z Li. Ot cleaner: Label correction as optimal transport. In IEEE International Conference on Acoustics, Speech and Signal Processing, pages 3953– 3957. IEEE, 2022.
Chuanwen Feng, Yilong Ren, and Xike Xie. Ot-filter: An optimal transport filter for learning with noisy labels. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16164–16174, 2023.

Curriculum Learning

Tianyi Zhou, Shengjie Wang, and Jeff Bilmes. Curriculum learning by optimizing learning dynamics. In International Conference on Artificial Intelligence and Statistics, pages 433–441. PMLR, 2021.
Lan-Zhe Guo and Yu-Feng Li. Class-imbalanced semi-supervised learning with adaptive thresholding. In International Conference on Machine Learning, pages 8082–8094. PMLR, 2022.
Yidong Wang, Hao Chen, Qiang Heng, Wenxin Hou, Marios Savvides, Takahiro Shinozaki, Bhiksha Raj, Zhen Wu, and Jindong Wang. Freematch: Self-adaptive thresholding for semi-supervised learning. International Conference on Learning Representations, 2022.
Yi Xu, Lei Shang, Jinxing Ye, Qi Qian, Yu-Feng Li, Baigui Sun, Hao Li, and Rong Jin. Dash: Semisupervised learning with dynamic thresholding. In International Conference on Machine Learning, pages 11525–11536. PMLR, 2021.

問題設定

最適輸送

ベクトルaRA,bRB\mathbf{a} \in \mathbb{R}^{A}, \mathbf{b} \in \mathbb{R}^Bが存在するとき、遷移コスト行列CRA×BC \in \mathbb{R}^{A \times B}をまず定義する。最適輸送とは、QRA×BQ \in \mathbb{R}^{A \times B}を定義し、以下の式を最小化する。ちなみにこれは、Frobenius Dot Productという名前らしい。

minQΠ(a,b)i,jcˉijqij\min _{Q \in \Pi (\mathbf{a, b})} \sum_{i,j} \bar{c}_{ij} q_{ij}

Π(a,b)\Pi(\mathbf{a, b})とはPolytope=多面体であり、以下のように数式的に書いてあるが、各行ともに和がa\mathbf{a}の各成分と一致し、各列ともに和がb\mathbf{b}の各成分と一致するということ

Image in a image block

つまりやってることはa\mathbf{a}からb\mathbf{b}へ輸送したい。aia_iからbjb_jへ輸送するコストがcijc_{ij}であり、輸送する量がqijq_{ij}である。qijq_{ij}は各行ごとに和がaia_iに一致し、各列ごとにbjb_jに一致しないといけない。

最適輸送によるPseudo Label

バッチサイズがBBで、CCクラス分類をする時を考える。

運ぶ元のVectorは(1/B,1/B,...)T(1/B, 1/B, ...)^Tで、運ぶ先は(1/C,1/C,)(1/C, 1/C, \cdots)である。Softmax分類器分類した結果をPR+B×CP \in \mathbb{R}_+ ^{B \times C}とする。ここで、コスト行列をlogP-\log Pとする。これによって、0に近いsoftmaxは高いコストに、1に近いsoftmaxは低いコストになる。そして、以下のような最適輸送を計算する。

Image in a image block

QQの制約として、各行の総和はそれぞれ1/B1/B、各列の総和が1/C1/Cである。

これを計算することで、各クラスとしては所属するデータの総量が決まっている中で、どのサンプルから運んでくるのが一番コスト安いのか?の兼ね合いを求められる。その兼ね合いによってDenoisingしている感じ。

BQBQと乗じて正規化することによって、qijq_{ij}はバッチのii番目のサンプルが、クラスjjへ運搬する=所属する重み。つまり、最適輸送の計算結果を所属だとみなせば、局所性をある程度考慮したNoisy Labelに対してのロバスト性になる

伝統的な最適輸送においてのSinkhorn Algorithm

直接最適輸送を計算するのは難しい。ここで、エントロピー正則化項を加えて以下の式を正則化する。

Image in a image block

この形にするとSinkhorn Algorithmによって計算しやすく、GPUを利用した計算もできるようになる。

Methodology

CCクラス分類の訓練データセットDtrainD_{train}を使って訓練する。しかし、Noisy Labelであるという前提である。

局所構造込みの最適輸送によるノイズ除去と再ラベル(SOT)

既存の最適輸送ベースの手法は大域的な最適化をするが、局所的な最適化は行わない。ここでは、局所的な構造(近くのラベルは何?)を考慮した最適輸送を開発した

前述のように、pijp_{ij}をバッチでii番目のサンプルがクラスjjに属する確率だとして、最適輸送のコストをlogP-\log Pとして扱う手法である。この手法ではそれにとどまらず、ハイパラκ\kappaに制御された2つの正則化項で局所的な構造を捉えられるようにした

Image in a image block
Image in a image block
  • SRB×BS \in \mathbb{R}^{B \times B}であり、sijs_{ij}バッチのi,ji, j番目のサンプルのcosine類似度
  • LRB×CL \in \mathbb{R}^{B \times C}であり、li1,,liCl_{i1}, \cdots, l_{iC}はone-hotベクトルであり、与えられたラベルを表す(Noisyなものであるが)
  • PRB×CP \in \mathbb{R}^{B \times C}であり、pi1,.piCp_{i1}, \cdots. p_{iC}バッチのii番目のサンプルが各クラスに所属する確率を表す。
    • logP-\log Pとすることで所属する確率が高いクラスはコスト低く、確率が低いクラスのコストは爆発的に大きくしている。

ΩP(Q)\Omega^P(Q)は、xi,xj\mathbf{x}_i, \mathbf{x}_jのサンプル間で、以下の条件を満たせば満たすほど、2つのサンプルのそれぞれクラスkkへ輸送する量の積qikqjkq_{ik} q_{jk}に大きい重みにしている。

  1. cosine類似度が高い。
    1. つまり入力空間の上で近いところにありそう。
  2. Noisy Labelで訓練したときのクラスkkについてのサンプルi,ji, jの予測確率が同様に高い。
    1. つまり、Noisy Labelで訓練した識別器でも同じクラスに属していると判断されてる

つまり、cosine類似度が高いという条件を付けたことによって、入力が近くないと損失関数を大きく減らすことができないようにした

同様に、ΩL(Q)\Omega^L(Q)は、同様にサンプルi,ji, jのクラスkkへの輸送qikqjkq_{ik} q_{jk}について以下の条件を満たすほど大きくした。

  1. cosine類似度が高い。
  2. 与えられたNoisy Labelについて、同じくクラスkkに属していれば1、それ以外ならば0。
    1. 隣接したものについてを考えることができるらしい。十分に識別器がNoisy Labelに近似できない前提だからこの項を追加した??これいらなくね。

このように訓練することが、周辺構造を考慮した最適輸送となる。

Curriculumと周辺構造を考慮した最適輸送(CSOT)

訓練の早期段階や、Noise率が非常に高い場合、予測結果は十分に信頼できない。これに対して、カリキュラム学習の要領で解決を試みた。

Image in a image block

無印SOTと異なるところは、m[0,1]m \in [0, 1]の予算という値を導入した。そして、各行の和は1/B1/Bのままだが、各列の和は1/C1/Cではなく、予算を用いたより小さくできるm/Cm/Cである。(最終的にBQBQするので各行の和は1になる。)

学習の早い段階orNoise率が高いとき、m=0.5m=0.5などとすることによって、全体の50%だけ輸送させることになる。この時、輸送されるのは上位50%の信頼できるラベル付け=コストが最も低い50%の輸送=運びやすい輸送=上位50%の間違ってなさそうなサンプルを運ばせることができる。これでカリキュラム学習を実現させている。

最後に、DataをCleanとCorruptedの2つの集合に分ける。

最適輸送によって計算咲いた後のラベル付け自体はy^i=arg maxjqij\hat{y}_i = \argmax _j q_{ij}である。

wi=qiy^i/(m/C)w_i = q_{i\hat{y}_i} / (m/C)を考える。これは各ラベルの自信度合いであるといえる。そして、毎イテレーションごとに、重みが大きい=自信があるラベル付けのサンプルから順にrounddown(mB)rounddown(mB)個選ぶ。mmの割合だけ輸送したので、信頼できると思えるものもmmの割合だけ選ぶ。

そして信頼できるもの、できないものの2つの集合に切り分けるできる。

切り分けた後の学習

Noisy Labelあるあるの早期での間違ったラベル付け換えによる影響を避けるため、2段階の訓練スキームを考えた。

  • 第1段階では、徐々に選択されたCleanなサンプルで教師あり学習をして、選ばれなかったラベルで自己教師あり学習をする。
  • 第2段階では、すべてのCleanなサンプルで自己教師あり学習をする。

損失関数は、教師ありと自己教師ありはそれぞれ以下のように設計する。先行研究のNCEとSimSiamで提案されたものを使う。LmixL^{mix}はMix-up損失。LlabL^{lab}はNCEで提案された。LsimsiamL^{simsiam}はSimSiamで提案された。

Image in a image block

CSOTを計算するための軽量なソルバの提案

局所一貫性を考慮しないCOTの計算

まずは、局所一貫性を考慮しない、カリキュラム学習だけをとりこんだ最適輸送の計算を考える。

既存のやり方と同様に、エントロピーの項をつける。

Image in a image block

そして、これは先行研究(Jean-David Benamou, Guillaume Carlier, Marco Cuturi, Luca Nenna, and Gabriel Peyré. Iterative bregman projections for regularized transportation problems. SIAM Journal on Scientific Computing, 37(2):A1111–A1138, 2015.)によって、KLダイバージェンスでの最適化で近似できる

minQΠc(a,b)ϵKL(QeC/ϵ)\min _{Q \in \Pi ^c (\mathbf{a, b})} \epsilon KL(Q|e^{-{C/\epsilon}})

これは、Dykstra’s algorithm https://www.jstor.org/stable/2288193によって解くことができる。

局所一貫性を考慮したCSOTの計算

では考慮するときはどのように説くことができるか。Generalized Conditional Gradient(GCG)というアルゴリズムの枠内を使って解く。

Image in a image block
Image in a image block

Experiment

m=0.3m=0.3からはじめて、80イテレーションの間に1増えるようにした。mmの上限自体は1で超える分も1にしている。

CSOTは合成ノイズが付与されたCIFAR-10, CIFAR-100で有効だとわかった。対称ノイズ、非対称ノイズのいずれでもいい結果を出した。

実世界のデータセットWebVisionでもいい性能を出した。訓練するためのコストも低い。

Abrasion Study

  • Curriculumを導入したことでAccuracyは2%向上した。ノイズが高いときは4%もの改善が見られた。
  • CSOTによるCleanとCorruptedへの切り分けの性能も優れている。
  • CSOTによる破損したラベル(PUにも応用できね?)修正もよい性能を誇る。
  • 効率的なスケーリング反復=Algorithm1を盛り込んだら、最高で3.7倍も速くなった。